查看原文
其他

数据集 | 港股年报文本数据集(2007 ~ 2023)

大邓 大邓和他的Python
2024-09-10

一、数据集概况

数据名称: 港股年报
数据来源: 披露易(https://www1.hkexnews.hk/)
报告类型: 中(英)文年报
公司数量: 2671
报告数量: 27172
会计年度: 2007 ~ 2023
报告发布日期: 2007-01-08 ~ 2023-12-22
数据类型: pdf、txt、csv(csv是对所有txt的汇总文件)
数据体积: 257G

港股年报数据集,500元;加微信 372335839, 备注「姓名-学校-专业」
数据是虚拟产品,一经售出,不再退还! 请仔细阅读推文内容, 确认无误再加微信详谈购买事宜 

1.1 数据集截图



1.2 数据来源

数据整理自 披露易 https://www1.hkexnews.hk

https://www1.hkexnews.hk/search/titlesearch.xhtml?lang=zh

二、PDF、TXT

2.1 读取TXT

text = open('港股年报中文TXT/09985_2022_衛龍_2022年年報_27-04-2023.txt').read()
text[:500]

Run

'(Incorporated in the Cayman Islands with Limited Liability)\n(於開曼群島註冊成立的有限公司)\nStock code 股份代號 : 09985.HK\nANNUAL\nREPORT\n2022\n年報 2022\nANNUAL REPORT\n年報Contents 2 Company Profile\n公司簡介\n目錄\n3 Definitions\n釋義\n6 Corporate Information\n公司資料\n8 Financial Overview\n財務概覽\n10 Chairman’s Statement\n主席報告\n14 Management Discussion and Analysis\n管理層討論與分析\n33 Corporate Governance Report\n企業管治報告\n57 Biographies of Directors and Senior Management\n董事及高級管理人員履歷\n66 Report of the Directors\n董事會報告\n90 Independent Auditor’s Report\n獨立核數師'

2.2  PDF

2.2.1 安装pdfdocx

打开命令行(cmd), 执行安装命令

pip install pdfdocx

2.2.2 读取pdf

from pdfdocx import read_pdf

text = read_pdf('港股年报中文PDF/09990_2022_祖龍娛樂_2022年度報告_24-04-2023.PDF')
text[:500]

Run

'2022\n2022\n年\n報\nANNUAL REPORT \n(Incorporated in the Cayman Islands with limited liability)\n( 於開曼群島註冊成立的有限公司 )\nStock Code 股份代號 : 9990\n祖龍娛樂有限公司\nArchosaur Games Inc.\n \n頁次\n釋義 \n2\n公司資料 \n9\n財務概要 \n11\n主席致辭 \n13\n財務表現摘要 \n18\n管理層討論與分析 \n19\n董事會報告 \n32\n董事及高級管理層履歷詳情 \n61\n企業管治報告 \n66\n獨立核數師報告 \n79\n綜合損益表 \n85\n綜合全面收益表 \n86\n綜合資產負債表 \n87\n綜合權益變動表 \n89\n綜合現金流量表 \n91\n綜合財務報表附註 \n93\n目錄\n祖龙娛樂有限公司  年度報告 2022\n02\n釋義\n於本年報內,除文義另有所指外,下列詞彙具有以下涵義:\n「採納日期」\n指\n2021年2月5日,即股東於本公司在2021年2月5日(星期五)舉行的股東\n特別大會上採納購股權計劃的日期\n「修訂日期」\n指\n2022年12月22日,即購股權計劃的修訂獲股東在本公司於'



三、 繁体2简体

港股年报 PDF 和  TXT 内容均为繁体字未做处理, 后续如果用 Python 做文本分析, 可以使用 opencc-python 处理中英文

3.1 安装

pip3 install opencc-python-reimplemented

3.2 转换语法

from opencc import OpenCC
cc = OpenCC('t2s')  # 繁体2简体

text = '開放中文轉換'
cc.convert(text)

Run

开放中文转换



四、CSV

csv是对港股中(英)文TXT的汇总,且已对中文进行了繁体转简体处理。

4.1 读取

csv是对所有 txt 的汇总文件, 如果电脑内存16G +, 可直接读取。港股中文年报.csv.gz(2.69G,解压后大概8.8G)

import pandas as pd

cdf = pd.read_csv('港股中文年报.csv.gz')
cdf



如果电脑内存小于16G, 可参考 代码 | 如何处理远超电脑内存的csv文件

import pandas as pd

#只读取5行
cdf2 = pd.read_csv('港股中文年报.csv.gz'
                  compression='gzip'
                  nrows=5)

4.2 记录数

len(cdf)

Run

27170

4.3 公司数量

cdf['code'].nunique()

Run

2670

4.4 会计年度

数据集覆盖的会计年度主要集中在 2007 ~ 2023,但2001 ~ 2006也会有少量记录。

sorted(cdf.year.unique())

Run

[2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 
2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 
2019, 2020, 2021, 2022, 2023]

cdf[cdf['year']==2001]

cdf[cdf['year']==2003]

cdf[cdf['year']==2006]

cdf[cdf['year']==2007]


4.5 发布日期

港股年报报告发布日期

cdf['pubdate'] = pd.to_datetime(cdf['pubdate'])

print(cdf['pubdate'].min())
print(cdf['pubdate'].max())

Run

2007-01-08 00:00:00
2023-12-22 00:00:00

五、相关内容

数据集 |  美股年报10-K、20-F数据(2000-2023.12)

数据集 | 三板上市公司年报2002-2023.12

数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析



六、获取数据

  1. 港股年报数据集,500元;加微信 372335839, 备注「姓名-学校-专业」。
  2. 数据是虚拟产品,一经售出,不再退还!
  3. 请仔细阅读推文内容, 确认无误再加微信详谈购买事宜




精选内容

LIST | 社科(经管)可用数据集列表
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
管理科学学报 | 使用「软余弦相似度」测量业绩说明会「答非所问程度」
数据集  | 人民网政府留言板原始文本(2011-2023.12)
数据集  |  人民日报/经济日报/光明日报 等 7 家新闻数据集
可视化 | 人民日报语料反映七十年文化演变
数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
数据集 | 三板上市公司年报2002-2023.12
数据集 | 人民网地方领导留言板原始文本(2011-2023.12)
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 |  专利转让数据集(1985-2021)
数据集 | 288w政府采购合同公告明细数据(2023.09)
数据集 | 用来练习pandas的招聘数据
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用gov工作报告生成数字化词频「面板数据」
Polars库 | 最强 Pandas 平替来了
cpca库 | 中国省、市区划匹配库


继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存